The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Explainability of Graph Neural Networks (GNNs) is critical to various GNN applications but remains an open challenge. A convincing explanation should be both necessary and sufficient simultaneously. However, existing GNN explaining approaches focus on only one of the two aspects, necessity or sufficiency, or a trade-off between the two. To search for the most necessary and sufficient explanation, the Probability of Necessity and Sufficiency (PNS) can be applied since it can mathematically quantify the necessity and sufficiency of an explanation. Nevertheless, the difficulty of obtaining PNS due to non-monotonicity and the challenge of counterfactual estimation limits its wide use. To address the non-identifiability of PNS, we resort to a lower bound of PNS that can be optimized via counterfactual estimation, and propose Necessary and Sufficient Explanation for GNN (NSEG) via optimizing that lower bound. Specifically, we employ nearest neighbor matching to generate counterfactual samples for the features, which is different from the random perturbation. In particular, NSEG combines the edges and node features to generate an explanation, where the common edge explanation is a special case of the combined explanation. Empirical study shows that NSEG achieves excellent performance in generating the most necessary and sufficient explanations among a series of state-of-the-art methods.
translated by 谷歌翻译
基于语音的在线服务的广泛采用提出了有关使用和共享数据的安全性和隐私问题。如果数据受到损害,攻击者可以利用用户语音绕过扬声器验证系统甚至模仿用户。为了减轻这种情况,我们提出了DEID-VC,这是一种演讲者的识别系统,将真实的演讲者转换为伪扬声器,从而从口头声音中删除或使依赖说话者的属性混淆。 DEID-VC的关键组件包括基于变量的自动编码器(VAE)的伪扬声器生成器(PSG)和在零摄像机设置下的语音转换自动编码器(AE)。在PSG的帮助下,DeID-VC可以在扬声器级别甚至在话语层面上分配独特的伪扬声器。此外,还添加了两个新颖的学习目标,以弥合训练和零声音转换的推理之间的差距。我们以单词错误率(WER)和相等的错误率(EER)以及三个主观指标介绍了我们的实验结果,以评估DEID-VC的生成输出。结果表明,与我们的基线相比,我们的方法显着提高了清晰度(低10%)和去识别效果(EER高5%)。代码和听力演示:https://github.com/a43992899/deid-vc
translated by 谷歌翻译
VQA是一项雄心勃勃的任务,旨在回答任何与图像有关的问题。但是,实际上,由于用户的需求不断更新,并且该系统必须实施新功能,因此很难为所有人构建这样的系统。因此,持续学习(CL)能力是开发高级VQA系统的必要条件。最近,先锋工作将一个VQA数据集分为不相交的答案集以研究此主题。但是,VQA上的CL不仅涉及标签集的扩展(新答案集)。在将VQA系统部署到新环境(新的视觉场景)以及如何回答需要新功能的问题(新问题类型)时,研究如何回答问题至关重要。因此,我们提出了Clove,这是一个在视觉问题答案上连续学习的基准,其中包含上述两个CL方案的场景和功能收入设置。在方法论方面,VQA和分类的CL之间的主要区别在于,前者还涉及扩大和防止忘记推理机制,而后者则集中在班级表示上。因此,我们提出了一种为CL上量身定制的基于无数据的基于Real-DATA的基于VQA上的方法,称为场景图作为符号重播的提示。它使用一段场景图作为提示,它可以重播伪场景图,以表示过去的图像以及相关的QA对。还提出了一个统一的VQA模型来利用当前和重播数据来增强其质量检查能力。最后,实验结果揭示了丁香的挑战,并证明了我们方法的有效性。数据集和代码将在https://github.com/showlab/clvqa上找到。
translated by 谷歌翻译
在存在未衡量的混杂因素的情况下,我们解决了数据融合的治疗效应估计问题,即在不同的治疗分配机制下收集的多个数据集。例如,营销人员可以在不同时间/地点为相同产品分配不同的广告策略。为了处理由未衡量的混杂因素和数据融合引起的偏见,我们建议将观察数据分为多组(每个组具有独立治疗分配机制),然后将组指标显式地模拟为潜在的组仪器变量(LATGIV),将其模拟为实施基于IV的回归。在本文中,我们概念化了这种思想,并开发了一个统一的框架,以(1)估计跨群体观察到的变量的分布差异; (2)对不同治疗分配机制的LATGIV模型; (3)插入latgivs以估计治疗响应函数。经验结果证明了与最新方法相比,LATGIV的优势。
translated by 谷歌翻译
事件摄像机最近在高动力或具有挑战性的照明情况下具有强大的常规摄像头的潜力,因此摄影机最近变得越来越受欢迎。通过同时定位和映射(SLAM)给出了可能受益于事件摄像机的重要问题。但是,为了确保在包含事件的多传感器大满贯上进展,需要新颖的基准序列。我们的贡献是使用包含基于事件的立体声摄像机,常规立体声摄像机,多个深度传感器和惯性测量单元的多传感器设置捕获的第一组基准数据集。该设置是完全硬件同步的,并且经过了准确的外部校准。所有序列都均均均均由高度准确的外部参考设备(例如运动捕获系统)捕获的地面真相数据。各个序列都包括小型和大型环境,并涵盖动态视觉传感器针对的特定挑战。
translated by 谷歌翻译
量子计算机是下一代设备,有望执行超出古典计算机范围的计算。实现这一目标的主要方法是通过量子机学习,尤其是量子生成学习。由于量子力学的固有概率性质,因此可以合理地假设量子生成学习模型(QGLM)可能会超过其经典对应物。因此,QGLM正在从量子物理和计算机科学社区中受到越来越多的关注,在这些QGLM中,可以在近期量子机上有效实施各种QGLM,并提出了潜在的计算优势。在本文中,我们从机器学习的角度回顾了QGLM的当前进度。特别是,我们解释了这些QGLM,涵盖了量子电路出生的机器,量子生成的对抗网络,量子玻尔兹曼机器和量子自动编码器,作为经典生成学习模型的量子扩展。在这种情况下,我们探讨了它们的内在关系及其根本差异。我们进一步总结了QGLM在常规机器学习任务和量子物理学中的潜在应用。最后,我们讨论了QGLM的挑战和进一步研究指示。
translated by 谷歌翻译
量子力学的内在概率性质引起了设计量子生成学习模型(QGLM)的努力。尽管取得了经验成就,但QGLMS的基础和潜在优势仍然在很大程度上晦涩难懂。为了缩小这一知识差距,我们在这里探索QGLM的概括属性,即将模型从学习的数据扩展到未知数据的能力。我们考虑两个典型的QGLM,量子电路出生的机器和量子生成的对抗网络,并明确地给出了它们的概括界限。当量子设备可以直接访问目标分布并采用量子内核时,结果确定了QGLM的优势而不是经典方法。我们进一步采用这些泛化范围来在量子状态制备和哈密顿学习中具有潜在的优势。 QGLM在加载高斯分布和估计参数化的哈密顿量的基态方面的数值结果符合理论分析。我们的工作开辟了途径,以定量了解量子生成学习模型的力量。
translated by 谷歌翻译
道路网络图为自动驾驶应用程序提供关键信息,例如可用于运动计划算法的可驱动区域。为了找到道路网络图,手动注释通常效率低下且劳动密集型。自动检测道路网络图可以减轻此问题,但现有作品仍然存在一些局限性。例如,基于细分的方法无法确保令人满意的拓扑正确性,并且基于图的方法无法提供足够精确的检测结果。为了解决这些问题的解决方案,我们在本文中提出了一种基于变压器和模仿学习的新方法。鉴于当今世界各地可以轻松访问高分辨率航空图像,我们在方法中使用航空图像。作为输入的空中图像,我们的方法迭代生成道路网络图逐vertex。我们的方法可以处理复杂的交叉点,以及各种事件的道路细分。我们在公开可用的数据集上评估我们的方法。通过比较实验证明了我们方法的优势。我们的作品附有一个演示视频,可在\ url {https://tonyxuqaq.github.io/projects/rngdet/}中获得。
translated by 谷歌翻译
联合学习(FL)已成为一个重要的机器学习范例,其中全局模型根据分布式客户端的私有数据培训。然而,由于分布转移,现有的大多数流体算法不能保证对不同客户或不同的样本组的性能公平。最近的研究侧重于在客户之间实现公平性,但它们忽视了敏感属性(例如,性别和/或种族)形成的不同群体的公平,这在实际应用中是重要和实用的。为了弥合这一差距,我们制定统一小组公平的目标,该目标是在不同群体中学习具有类似表现的公平全球模式。为了实现任意敏感属性的统一组公平,我们提出了一种新颖的FL算法,命名为集团分布强制性联邦平均(G-DRFA),其跨组减轻了与收敛速度的理论分析的分布转移。具体而言,我们将联邦全球模型的性能视为目标,并采用分布稳健的技术,以最大化最坏性地组的性能在组重新传递集团的不确定性上。我们在实验中验证了G-DRFA算法的优点,结果表明,G-DRFA算法优于统一组公平现有的公平联合学习算法。
translated by 谷歌翻译